检索结果

Select

1. 基于格拉斯曼流形子空间融合的多视图聚类

管娇娇, 钱雪忠, 周世兵, 姜凯彬, 宋威

《计算机应用》唯一官方网站 2022, 42 (12): 3740-3749. DOI: 10.11772/j.issn.1001-9081.2021101756

摘要（498）

HTML （8）

PDF （1806KB）（158）

现有的多视图聚类算法大多假设多视图数据点之间为线性关系，且在学习过程中无法保留原始特征空间的局部性；而在欧氏空间中进行子空间融合又过于单调，无法将学习到的子空间表示对齐。针对以上问题，提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先，将核技巧和局部流形结构学习结合以得到不同视图的子空间表示；然后，在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵；最后，对一致性亲和矩阵执行谱聚类来得到最终的聚类结果，并利用交替方向乘子法（ADMM）来优化所提模型。与核多视图低秩稀疏子空间聚类（KMLRSSC）算法相比，所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于注意力与图卷积网络的关系抽取模型

王晓霞, 钱雪忠, 宋威

计算机应用 2021, 41 (2): 350-356. DOI: 10.11772/j.issn.1001-9081.2020081310

摘要（415）

PDF （995KB）（1703）

针对关系抽取任务中句子依存树的信息利用率低和特征提取效果不佳的问题，提出了一种基于注意力引导的门控感知图卷积网络（Att-Gate-GCN）模型。首先，利用一种基于注意力机制的软剪枝策略，通过注意力机制为依存树中的边分配权重，以挖掘依存树中的有效信息，同时过滤无用信息；其次，构建一种门控感知图卷积网络（GCN）结构，通过门控机制增加特征感知能力，以获取更鲁棒的关系特征，同时结合依存树中的局部与非局部依赖特征，进一步抽取关键信息；最后，将关键信息输入分类器得到关系类别标签。实验结果表明，相较于原始的图卷积网络关系抽取模型，所提模型在SemEval2010-Task8数据集和KBP37数据集上F1值分别有2.2个百分点和3.8个百分点的提升，能够更充分地利用有效信息，提升了模型的关系抽取能力。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于可变网格划分的密度偏差抽样算法

盛开元钱雪忠吴秦

计算机应用 2013, 33 (09): 2419-2422. DOI: 10.11772/j.issn.1001-9081.2013.09.2419

摘要（775）

PDF （640KB）（387）

简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。

相关文章 | 多维度评价

Select

4. 改进的GK聚类算法

张妨妨钱雪忠

计算机应用 2012, 32 (09): 2476-2479. DOI: 10.3724/SP.J.1087.2012.02476

摘要（994）

PDF （561KB）（585）

针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。

参考文献 | 相关文章 | 多维度评价

Select

5. 关联规则中基于降维的最大频繁模式挖掘算法

钱雪忠惠亮

计算机应用 2011, 31 (05): 1339-1343. DOI: 10.3724/SP.J.1087.2011.01339

摘要（1682）

PDF （820KB）（1097）

基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPMax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算法改传统的FP-tree为数字频繁模式树DFP-tree,提高了超集检验的效率;采用的预测剪枝策略减少了挖掘的次数;基于降低项集维度的挖掘方式,减少了候选项的数目,避免了递归地产生条件频繁模式树,提高了算法的效率。实验结果表明,BDRFI的效率是同类算法的2~8倍。